- 快捷搜索
- 全站搜索
近年来,银行业务发展对信息科技的依赖程度日益增加,为满足不断增长的业务规模与不断发展变化的业务需求,各商业银行不断提升业务系统的建设与改造力度,逐步实现了全辖账务、信贷、客户信息等业务数据的总行集中管理。目前商业银行数据集中管理实现了技术上高度集成、营销上高度集约,但数据统一处理也造成了数据量的急剧膨胀,给数据的管理和维护带来诸多问题,如存储空间、数据保存、存储维护成本、大数据处理效率及数据安全等。
商业银行积累了海量数据信息,但不是所有的数据都具有相同的使用价值,随着时间的推移,有些数据被频繁访问或更新,而有些数据则很少被访问。快速产生的、大量的、低价值的数据不仅严重消耗了系统资源、拖累了系统处理性能,还可能影响系统的稳定性而导致未知的系统风险。事实上,数据是一种具有生命周期的资源,对数据进行生命周期管理,研究商业银行客户行为规律和金融业务社会需求,已经成为金融业发展的趋势和方向。商业银行数据在不同阶段有其存在的不同意义,有必要根据数据的业务价值,进行数据规范化管理以提高业务系统运行效率,保障系统稳定高效运行,降低商业银行运行和维护成本。
一、商业银行数据生命周期管理的探索
传统的商业银行数据管理主要集中于研究备份管理和灾难恢复等数据可用性技术。随着大数据时代的到来,国外银行及相关数据平台已开始进行数据使用管理实践,如ING Direct网上银行通过各类历史数据分析对客户进行分类,筛选出高回报客户,并为他们提供具有吸引力的利率;谷歌推出的小额贷款产品Zest Cash,考察数千个数据线索,给信用记录不好或没有信用卡的客户提供贷款服务,避免潜在客户的流失。商业银行有必要针对数据在不同时期的业务需求和使用价值,规范数据管理,满足成本效率要求,挖掘数据中的业务创新价值。
数据生命周期管理Data Lifecycle Management,DLM)概念源于信息生命周期管理(Information Lifecycle Management,ILM),是对业务系统的数据进行贯穿其整个生命周期的管理,是一套策略、流程、实践、服务和工具,从数据创建之初直到最后被销毁,使数据的业务价值和最合适、最具有成本效率的基础设施保持一致。
二、商业银行数据生命周期管理现状
1.数据生命周期管理面临的问题
商业银行普遍拥有众多的业务系统,数据种类也很复杂,数据规模急剧膨胀,业务系统生产数据库存放了大量的历史数据,这些数据从系统上线以来就一直保存在数据库里面,因而生产数据库的规模一直呈线性增长,容量越来越庞大,面临以下几个方面的问题。
一是数据库的体积太大,最直接的体现就是业务数据库表容量较大,从而导致系统访问性能、响应速度下降,根据性能测试情况,当主机数据库的配置、基础环境相同,基础数据量增加到3倍时,响应时间增加到4倍,个别业务预期指标无法满足。
二是数据库表容量太大,给后台的维护带来困难,导致效率低下,索引优化、数据抽取、统计分析等后台维护时需要申请较长的维护窗口。如商业银行的核心系统每天需备份大量的生产数据,随着数据量的不断增大,备份时间和日结工作时间也越来越长,数据库锁表风险也随之变大。
三是一旦发生系统故障或误操作,则数据库的恢复将非常耗时,对整个业务支撑系统来说可能是致命的。
四是所有数据都集中存储在昂贵的高端存储设备中,随着数据的增长,扩容带来的投资成本也会不断上升。
2.数据生命周期管理的目标
商业银行数据生命周期管理的目标可分为以下三个层次。第一个层次是,商业银行广泛采用自动化网络存储技术,以自动化的方式实现信息的管理、共享、保护、备份、恢复、复制等功能,对数据进行规范化、分层化管理,使数据存储系统得到充分共享,数据得到全面的保护。目前大多数商业银行的数据管理处于该层次。
第二个层次是,商业银行能够按照数据价值、响应要求、业务需要、成本等因素,采用相应的数据存储、处理、备份、迁移、归档和回收等技术和设备,将数据生命周期管理策略成功地应用到业务系统。这个层次是未来三年大型商业银行数据管理的目标。
第三个层次是,跨业务系统实施数据生命周期管理,兼顾银行内外部数据,对全部应用系统数据实现自动化、可视化管理。商业银行将从以数据为核心和对象的角度,研究结构化与异构数据,审视全部业务流程。这一层次是目前国内外商业银行数据生命周期管理的长远目标,也是全球各行业大数据管理的目标。
当前,国内外知名的存储设备生产商都针对第一个层次的数据管理需求推出相应成熟的产品和解决方案,但很多厂商在咨询和实施DLM的时候,为了推动各自存储产品的销售,将DLM与存储软硬件产品进行捆绑,忽略了业务的实际情况,使得DLM局限于存储、备份、归档相关领域中。事实上,数据生命周期管理的目标是,降低信息利用成本、提升利用效率。后两个层次的数据管理目标是商业银行需要重视和着重研究的内容,本文重点针对第二个层次内容展开分析,并探讨数据生命周期管理模型的建立。
三、数据生命周期管理模型
1.数据生命周期划分
在信息系统建设时,就应规划数据生命周期管理策略,并针对不同系统、不同数据生命周期阶段建立可操作的生命周期管理规程。按照《人民银行数据生命周期管理技术规范》定义,数据生命周期一般可分为四个阶段:在线阶段、近线阶段、归档阶段(离线阶段)和销毁阶段。下面根据商业银行业务系统实际情况对各阶段的特征进行说明。
(1)在线阶段。该阶段数据处于频繁使用期内,在用户访问频率、业务响应时间、保留价值、信息存储设备、数据安全保护等方面要求高,处于该阶段的数据具有保障业务系统正常运转以及维系业务活动正常展开的功能。
(2)近线阶段。该阶段数据已过频繁使用期,但仍处于使用期,只是访问频率较低,在系统资源受限的情况下,为保障系统的健康安全运行,应将这类访问频度低、业务响应时问要求较低的数据从系统中分离出来进行分表或分库处理,但要确保系统仍可无缝访问,并且访问过程对用户透明。
(3)归档阶段。该阶段数据已过使用期,但或因政策制度、法律法规的要求,或具有数据挖掘分析价值,或需支持其他业务开展仍需保存,即数据基本不再被访问,但仍具有保存价值。这类数据一般保存在系统主要存储设备之外的存储介质中,且归档后一般不再提供系统联机访问接口,如有查询要求,需使用特定的查询工具或将其导入相应系统(如备份系统或专门建立的查询系统)中。
(4)销毁阶段。该阶段数据已过规定或要求的保存期限,不再具有保存价值,可进行销毁处理。
2.数据在线度
随着时间的推移,新数据不断产生,历史数据使用频率不断下降,使用价值也相应衰减到一个较低的水平。因此,上述的阶段划分是相对的,对在线数据的定义也是定性的。为了更好地体现数据的生命周期,需要定量描述数据所处各阶段,引入数据在线度(Data On一1ine Level,DOL)γ准确反应数据的在线程度和使用衰减情况。数据在线度与用户对数据的访问频度a相关,a为单位时间访问次数,与数据的迁移安全性、代价、必要性有关,现设迁移因子为m,则关联函数为γt =f(at, mt),t为时间。
新生数据被频繁访问期间,也就是在线阶段,γ为1。随着时间的推移,访问频度的变化,数据在线度随之修正,直至达到某阈值,数据即处于近线阶段。此后,受IT资源所限或其他因素所致,可考虑进行数据迁移。当γ趋近于0或达到某阈值时,可对数据进行归档处理。当数据生命周期进入归档阶段时,需要对数据进行迁移或从系统中将数据分离出来进行分库处理。但也有部分业务系统,因设备老化、技术限制或迁移难度大等原因,无法实现对访问频度下降的数据进行迁移。同时也存在一些数据虽然访问频度下降.但在一段时间内仍需维持在线或近线状态,或者借助新技术在满足业务系统正常运转的前提下提前对数据进行迁移的情况。迁移因子影响了数据在线度,对数据生命周期阶段划分具有阻碍或促进作用。综上,在线度关联函数如公式l所示:
当前,商业银行灾备中心建设与运营主要采用自建、共建和外包三种模式。哪种
央行和银监会对中小银行的灾备布局建设十分重视,构建同城灾备中心,发挥其